Recently, learning-based controllers have been shown to push mobile robotic systems to their limits and provide the robustness needed for many real-world applications. However, only classical optimization-based control frameworks offer the inherent flexibility to be dynamically adjusted during execution by, for example, setting target speeds or actuator limits. We present a framework to overcome this shortcoming of neural controllers by conditioning them on an auxiliary input. This advance is enabled by including a feature-wise linear modulation layer (FiLM). We use model-free reinforcement-learning to train quadrotor control policies for the task of navigating through a sequence of waypoints in minimum time. By conditioning the policy on the maximum available thrust or the viewing direction relative to the next waypoint, a user can regulate the aggressiveness of the quadrotor's flight during deployment. We demonstrate in simulation and in real-world experiments that a single control policy can achieve close to time-optimal flight performance across the entire performance envelope of the robot, reaching up to 60 km/h and 4.5g in acceleration. The ability to guide a learned controller during task execution has implications beyond agile quadrotor flight, as conditioning the control policy on human intent helps safely bringing learning based systems out of the well-defined laboratory environment into the wild.
translated by 谷歌翻译
我们解决了在存在障碍物的情况下,通过一系列航路点来解决四肢飞行的最低时间飞行问题,同时利用了完整的四型动力学。早期作品依赖于简化的动力学或多项式轨迹表示,而这些动力学或多项式轨迹表示,这些表示没有利用四四光的全部执行器电位,因此导致了次优溶液。最近的作品可以计划最小的时间轨迹;然而,轨迹是通过无法解释障碍的控制方法执行的。因此,由于模型不匹配和机上干扰,成功执行此类轨迹很容易出现错误。为此,我们利用深厚的强化学习和经典的拓扑路径计划来训练强大的神经网络控制器,以在混乱的环境中为最少的四型四型飞行。由此产生的神经网络控制器表现出比最新方法相比,高达19%的性能要高得多。更重要的是,博学的政策同时在线解决了计划和控制问题,以解决干扰,从而实现更高的鲁棒性。因此,提出的方法在没有碰撞的情况下实现了100%的最低时间策略的成功率,而传统的计划和控制方法仅获得40%。所提出的方法在模拟和现实世界中均已验证,四速速度高达42公里/小时,加速度为3.6g。
translated by 谷歌翻译
模型预测控制(MPC)已成为高性能自治系统嵌入式控制的流行框架。但是,为了使用MPC实现良好的控制性能,准确的动力学模型是关键。为了维持实时操作,嵌入式系统上使用的动力学模型仅限于简单的第一原则模型,该模型实质上限制了其代表性。与此类简单模型相反,机器学习方法,特别是神经网络,已被证明可以准确地建模复杂的动态效果,但是它们的较大的计算复杂性阻碍了与快速实时迭代环路的组合。通过这项工作,我们提出了实时神经MPC,这是一个将大型复杂的神经网络体系结构作为动态模型的框架,在模型预测性控制管道中。 ,展示了所描述的系统的功能,可以使用基于梯度的在线优化MPC运行以前不可行的大型建模能力。与在线优化MPC中神经网络的先前实现相比,我们可以利用嵌入式平台上50Hz实时窗口中的4000倍的型号。此外,与没有神经网络动力学的最新MPC方法相比,我们通过将位置跟踪误差降低多达82%,从而显示了对现实世界问题的可行性。
translated by 谷歌翻译
敏锐环境中的敏捷四号飞行有可能彻底改变运输,运输和搜索和救援应用。非线性模型预测控制(NMPC)最近显示了敏捷四足电池控制的有希望的结果,但依赖于高度准确的模型以获得最大性能。因此,模拟了非模型复杂空气动力学效果,不同有效载荷和参数错配的形式的不确定性将降低整体系统性能。本文提出了L1-NMPC,一种新型混合自适应NMPC,用于在线学习模型不确定性,并立即弥补它们,大大提高了与非自适应基线的性能,最小计算开销。我们所提出的体系结构推广到许多不同的环境,我们评估风,未知的有效载荷和高度敏捷的飞行条件。所提出的方法展示了巨大的灵活性和鲁棒性,在大未知干扰下的非自适应NMPC和没有任何增益调整的情况下,超过90%的跟踪误差减少。此外,相同的控制器具有相同的增益可以准确地飞行高度敏捷的赛车轨迹,该轨迹展示最高速度为70公里/小时,相对于非自适应NMPC基线提供约50%的跟踪性能提高。
translated by 谷歌翻译
二次运动的准确轨迹跟踪控制对于在混乱环境中的安全导航至关重要。但是,由于非线性动态,复杂的空气动力学效应和驱动约束,这在敏捷飞行中具有挑战性。在本文中,我们通过经验比较两个最先进的控制框架:非线性模型预测控制器(NMPC)和基于差异的控制器(DFBC),通过以速度跟踪各种敏捷轨迹,最多20 m/s(即72 km/h)。比较在模拟和现实世界环境中进行,以系统地评估这两种方法从跟踪准确性,鲁棒性和计算效率的方面。我们以更高的计算时间和数值收敛问题的风险来表明NMPC在跟踪动态不可行的轨迹方面的优势。对于这两种方法,我们还定量研究了使用增量非线性动态反演(INDI)方法添加内环控制器的效果,以及添加空气动力学阻力模型的效果。我们在世界上最大的运动捕获系统之一中进行的真实实验表明,NMPC和DFBC的跟踪误差降低了78%以上,这表明有必要使用内环控制器和用于敏捷轨迹轨迹跟踪的空气动力学阻力模型。
translated by 谷歌翻译
For conceptual design, engineers rely on conventional iterative (often manual) techniques. Emerging parametric models facilitate design space exploration based on quantifiable performance metrics, yet remain time-consuming and computationally expensive. Pure optimisation methods, however, ignore qualitative aspects (e.g. aesthetics or construction methods). This paper provides a performance-driven design exploration framework to augment the human designer through a Conditional Variational Autoencoder (CVAE), which serves as forward performance predictor for given design features as well as an inverse design feature predictor conditioned on a set of performance requests. The CVAE is trained on 18'000 synthetically generated instances of a pedestrian bridge in Switzerland. Sensitivity analysis is employed for explainability and informing designers about (i) relations of the model between features and/or performances and (ii) structural improvements under user-defined objectives. A case study proved our framework's potential to serve as a future co-pilot for conceptual design studies of pedestrian bridges and beyond.
translated by 谷歌翻译
联合学习(FL)是标准集中学习范式的最吸引人的替代方案之一,允许异质的设备集训练机器学习模型而无需共享其原始数据。但是,FL需要中央服务器来协调学习过程,从而引入潜在的可扩展性和安全性问题。在文献中,已经提出了诸如八卦联合学习(GFL)和支持区块链的联合学习(BFL)之类的无服务器的方法来减轻这些问题。在这项工作中,我们提出了这三种技术的完整概述,该技术根据整体性能指标进行比较,包括模型准确性,时间复杂性,交流开销,收敛时间和能源消耗。广泛的模拟活动允许进行定量分析。特别是,GFL能够节省18%的训练时间,68%的能源和51%的数据相对于CFL解决方案,但无法达到CFL的准确性水平。另一方面,BFL代表了一个可行的解决方案,用于以更高级别的安全性实施分散的学习,以额外的能源使用和数据共享为代价。最后,我们确定了两个分散的联合学习实施的开放问题,并就该新研究领域的潜在扩展和可能的研究方向提供见解。
translated by 谷歌翻译
相关光和电子显微镜是研究细胞内部结构的强大工具。它结合了相关光(LM)和电子(EM)显微镜信息的相互益处。但是,将LM叠加到EM图像以将功能分配给结构信息的经典方法受到LM图像中可见的结构细节的巨大差异的阻碍。本文旨在研究一种优化方法,我们称之为EM引导的反卷积。它试图将荧光标记的结构自动分配给EM图像中可见的细节,以弥合两种成像模式之间的分辨率和特异性的间隙。
translated by 谷歌翻译
现代机器学习模型使用大型数据集使用越来越多的参数(GPT-3参数1750亿参数),以获得更好的性能。更大的是常态。光学计算已被恢复为通过执行线性操作的同时降低电力的光学加速器的大规模计算的潜在解决方案。但是,要用光实现有效的计算,在光学上而不是电子上创建和控制非线性仍然是一个挑战。这项研究探讨了一种储层计算方法(RC)方法,通过该方法,在绝缘体上的Linbo3中的14毫米长的几种模式波导被用作复杂的非线性光学处理器。数据集在飞秒脉冲的频谱上进行数字编码,然后在波导中启动。输出频谱非线性取决于输入。我们通过实验表明,与非转换数据相比,使用波导的输出谱提高了几个数据库的分类精度,使用来自波导的输出频谱具有784个参数的简单数字线性分类器,约为10 $ \%$。相比之下,必须具有40000个参数的深数字神经网络(NN)才能达到相同的准确性。将参数的数量减少$ \ sim $ 50,这说明了紧凑的光RC方法可以与深数字NN一起执行。
translated by 谷歌翻译
从最小值和实例依赖性视图中,已经对乐观算法进行了广泛的研究,以在情节表格MDP中进行遗憾的最小化。但是,对于PAC RL问题,目标是确定具有很高可能性的近乎最佳策略,对它们的实例依赖性样本复杂性知之甚少。 Wagenmaker等人的负面结果。 (2021)表明,乐观的抽样规则不能用于达到(仍然难以捉摸的)最佳实例依赖性样本复杂性。在正面,我们为PAC RL的乐观算法提供了第一个依赖于实例依赖性的结合,BPI-UCRL仅可用的最小值保证(Kaufmann等,2021)。尽管我们的界限具有一些最小的访问概率,但与先前工作中出现的价值差距相比,它的次要差距的精致概念。此外,在具有确定性过渡的MDP中,我们表明BPI-UCRL实际上是近乎最佳的。从技术方面来说,由于独立兴趣的新“目标技巧”,我们的分析非常简单。我们用新颖的硬度结果补充了这些发现,解释了为什么与Minimax政权不同,为什么PAC RL的实例依赖性复杂性与遗憾最小化的复杂性不易与遗憾最小化相关。
translated by 谷歌翻译